Virtual reality (VR) over wireless is expected to be one of the killer applications in next-generation communication networks. Nevertheless, the huge data volume along with stringent requirements on latency and reliability under limited bandwidth resources makes untethered wireless VR delivery increasingly challenging. Such bottlenecks, therefore, motivate this work to seek the potential of using semantic communication, a new paradigm that promises to significantly ease the resource pressure, for efficient VR delivery. To this end, we propose a novel framework, namely WIreless SEmantic deliveRy for VR (WiserVR), for delivering consecutive 360{\deg} video frames to VR users. Specifically, deep learning-based multiple modules are well-devised for the transceiver in WiserVR to realize high-performance feature extraction and semantic recovery. Among them, we dedicatedly develop a concept of semantic location graph and leverage the joint-semantic-channel-coding method with knowledge sharing to not only substantially reduce communication latency, but also to guarantee adequate transmission reliability and resilience under various channel states. Moreover, implementation of WiserVR is presented, followed by corresponding initial simulations for performance evaluation compared with benchmarks. Finally, we discuss several open issues and offer feasible solutions to unlock the full potential of WiserVR.
translated by 谷歌翻译
开放世界对象检测是一个更具笼统和挑战性的目标,旨在识别和本地化由任意类别名称描述的对象。最近的工作GLIP通过将检测数据集的所有类别名称连接到句子中,从而将此问题作为接地问题,从而导致类别名称之间的效率低下的相互作用。本文介绍了Distclip,这是一种通过诉诸于设计概念词典的知识富集,是一种平行的视觉概念训练预训练方法,用于开放世界检测。为了提高学习效率,我们提出了一种新型的并行概念公式,该公式分别提取概念,以更好地利用异质数据集(即检测,接地和图像文本对)进行培训。我们进一步设计了来自各种在线资源和检测数据集的概念字典〜(带有描述),以提供每个概念的先验知识。通过用描述丰富这些概念,我们明确地建立了各种概念之间的关系,以促进开放域学习。所提出的概念词典进一步用于提供足够的负面概念,用于构建单词区域对齐损失\,并完成图像对文本对数据标题中缺少描述的对象的标签。所提出的框架显示出强烈的零射击性能性能,例如,在LVIS数据集上,我们的DETCLIP-T优于9.9%的地图GLIPT-T优于GLIP-T,并且与完全避免的型号相比,稀有类别的稀有类别提高了13.5%。作为我们的。
translated by 谷歌翻译
在许多现实世界中的机器学习应用中,亚种群的转移存在着极大地存在,指的是包含相同亚种群组的培训和测试分布,但在亚种群频率中有所不同。重要性重新加权是通过对训练数据集中每个样本施加恒定或自适应抽样权重来处理亚种群转移问题的正常方法。但是,最近的一些研究已经认识到,这些方法中的大多数无法改善性能,而不是经验风险最小化,尤其是当应用于过度参数化的神经网络时。在这项工作中,我们提出了一个简单而实用的框架,称为“不确定性感知混合”(UMIX),以根据样品不确定性重新加权“混合”样品来减轻过度参数化模型中的过度拟合问题。基于训练 - 注射器的不确定性估计为每个样品的拟议UMIX配备,以灵活地表征亚群分布。我们还提供有见地的理论分析,以验证UMIX是否在先前的工作中实现了更好的概括界限。此外,我们在广泛的任务上进行了广泛的经验研究,以验证我们方法的有效性,既有定性和定量。
translated by 谷歌翻译
对抗训练(AT)方法有效地防止对抗性攻击,但它们在不同阶级之间引入了严重的准确性和鲁棒性差异,称为强大的公平性问题。以前建议的公平健壮的学习(FRL)适应重新重量不同的类别以提高公平性。但是,表现良好的班级的表现降低了,导致表现强劲。在本文中,我们在对抗训练中观察到了两种不公平现象:在产生每个类别的对抗性示例(源级公平)和产生对抗性示例时(目标级公平)时产生对抗性示例的不​​同困难。从观察结果中,我们提出平衡对抗训练(BAT)来解决强大的公平问题。关于源阶级的公平性,我们调整了每个班级的攻击强度和困难,以在决策边界附近生成样本,以便更容易,更公平的模型学习;考虑到目标级公平,通过引入统一的分布约束,我们鼓励每个班级的对抗性示例生成过程都有公平的趋势。在多个数据集(CIFAR-10,CIFAR-100和IMAGENETTE)上进行的广泛实验表明,我们的方法可以显着超过其他基线,以减轻健壮的公平性问题(最坏的类精度为+5-10 \%)
translated by 谷歌翻译
视觉问题回答是自然语言和愿景理解的重要任务。但是,在大多数公众视觉问题上回答了诸如VQA,CLEVR之类的数据集,这些问题是针对给定图像的特定于“她的眼睛是什么颜色?”的人类产生的。人类产生的众包问题相对简单,有时对某些实体或属性有偏见。在本文中,我们介绍了一个基于Image-Chiqa的新问题回答数据集。它包含Internet用户发布的现实查询,并结合了几个相关的开放域图像。系统应确定图像是否可以回答问题。与以前的VQA数据集不同,这些问题是现实世界中独立的查询,这些查询更加各种和无偏见。与先前的图像回程或图像捕获数据集相比,Chiqa不仅衡量了相关性,而且还可以衡量答案性,这需要更细粒度的视力和语言推理。 Chiqa包含超过40k的问题和超过200k的问题图像对。将三级2/1/0标签分配给每个对,指示完美的答案,部分答案和无关紧要。数据分析表明,Chiqa需要对语言和视觉有深入的了解,包括接地,比较和阅读。我们评估了几种最先进的视觉语言模型,例如ALBEF,表明仍然有一个很大的改进奇卡的空间。
translated by 谷歌翻译
LIDC-IDRI数据库是肺癌预测的最流行的基准。但是,通过放射科医生的主观评估,LIDC中的结节可能与病理基础真理具有完全不同的恶性注释,从而引入了标签分配错误,并在培训期间引起了后续的监督偏见。因此,LIDC数据库需要更多的客观标签来基于学习的癌症预测。基于一个额外的小数据集,该数据集包含通过病理检查诊断的180个结节,我们建议重新标记LIDC数据,以减轻对此强大基准测试的原始注释偏差的影响。我们在本文中证明,基于度量学习的类似结节检索提供新标签将是一种有效的重新标记策略。对这些重新标记的LIDC结节进行的培训可改善模型性能,当添加不确定的结节的新标签时,这将增强。我们进一步推断出,重新标记的LIDC是最终的良好肺癌预测的方便方法,同时构建大型病理预处理的结节数据库提供了长期解决方案。
translated by 谷歌翻译
在本文中,我们研究了如何使用现代视觉语言变形金刚实现更好的视觉接地,并为这项具有挑战性的任务提出了一种简单而强大的选择性训练(SIRI)机制。特别是,Siri传达了视觉接地研究的重要原则,即更好的初始视觉语言编码器将帮助该模型收敛到更好的局部最低限度,从而相应地提高性能。具体而言,随着训练的进行,我们不断更新编码器的参数,而定期重新定位的其余参数则可以根据增强的编码来更好地优化模型。 Siri在三个流行的基准测试中可以大大优于以前的方法。具体而言,我们的方法在Refcoco+ Testa上达到了83.04%的TOP1精度,超过了最先进的方法(从头开始训练)超过10.21%。此外,我们透露,即使培训数据有限,Siri也表现出色。我们还将其扩展到基于变压器的视觉接地模型和其他视觉语言任务,以验证有效性。
translated by 谷歌翻译
自我介绍在训练过程中利用自身的非均匀软监管,并在没有任何运行时成本的情况下提高性能。但是,在训练过程中的开销经常被忽略,但是在巨型模型的时代,培训期间的时间和记忆开销越来越重要。本文提出了一种名为ZIPF标签平滑(ZIPF的LS)的有效自我验证方法,该方法使用网络的直立预测来生成软监管,该软监管在不使用任何对比样本或辅助参数的情况下符合ZIPF分布。我们的想法来自经验观察,即当对网络进行适当训练时,在按样品的大小和平均分类后,应遵循分布的分布,让人联想到ZIPF的自然语言频率统计信息,这是在按样品中的大小和平均值进行排序之后进行的。 。通过在样本级别和整个培训期内强制执行此属性,我们发现预测准确性可以大大提高。使用INAT21细粒分类数据集上的RESNET50,与香草基线相比,我们的技术获得了 +3.61%的准确性增长,而与先前的标签平滑或自我验证策略相比,增益增加了0.88%。该实现可在https://github.com/megvii-research/zipfls上公开获得。
translated by 谷歌翻译
因果推论在电子商务和精确医学等各个领域都有广泛的应用,其性能在很大程度上取决于对个体治疗效果(ITE)的准确估计。通常,通过在其各个样品空间中分别对处理和控制响应函数进行建模来预测ITE。但是,这种方法通常会在实践中遇到两个问题,即治疗偏见引起的治疗组和对照组之间的分布分布以及其人口规模的显着样本失衡。本文提出了深层的整个空间跨网络(DESCN),以从端到端的角度进行建模治疗效果。 DESCN通过多任务学习方式捕获了治疗倾向,反应和隐藏治疗效果的综合信息。我们的方法共同学习了整个样品空间中的治疗和反应功能,以避免治疗偏见,并采用中间伪治疗效应预测网络来减轻样品失衡。从电子商务凭证分销业务的合成数据集和大规模生产数据集进行了广泛的实验。结果表明,DESCN可以成功提高ITE估计的准确性并提高提升排名的性能。发布生产数据集和源代码的样本是为了促进社区的未来研究,据我们所知,这是首个大型公共偏见的因果推理数据集。
translated by 谷歌翻译
在计算病理学工作流程中检测和分裂ObjectSwithinWholesLideImagesis。自我监督学习(SSL)吸引了这种重度注释的任务。尽管自然图像的密集任务具有广泛的基准,但不幸的是,在当前的病理学作品中,此类研究仍然没有。我们的论文打算缩小这一差距。我们首先基于病理图像中密集预测任务的代表性SSL方法。然后,我们提出了概念对比学习(结论),这是密集预训练的SSL框架。我们探讨了结论如何使用不同来源提供的概念,并最终提出了一种简单的无依赖性概念生成方法,该方法不依赖于外部分割算法或显着检测模型。广泛的实验表明,在不同环境中,结论比以前的最新SSL方法具有优势。沿着我们的探索,我们弥补了几个重要而有趣的组成部分,这有助于致力于病理图像的密集预训练。我们希望这项工作可以提供有用的数据点,并鼓励社区为感兴趣的问题进行结论预培训。代码可用。
translated by 谷歌翻译